Telegram Group & Telegram Channel
Чем отличается использование памяти у оптимизаторов Adam и SGD

Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.

Adam хранит для каждого параметра две дополнительные переменные:
📍 m — экспоненциальное среднее градиентов (первая моментная оценка),
📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).

То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.

SGD:
📍 В базовом виде — не хранит ничего, кроме самих параметров.
📍 С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.

На практике:
➡️ Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память.
➡️ Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).

Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/967
Create:
Last Update:

Чем отличается использование памяти у оптимизаторов Adam и SGD

Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.

Adam хранит для каждого параметра две дополнительные переменные:
📍 m — экспоненциальное среднее градиентов (первая моментная оценка),
📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).

То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.

SGD:
📍 В базовом виде — не хранит ничего, кроме самих параметров.
📍 С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.

На практике:
➡️ Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память.
➡️ Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).

Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/967

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

What is Secret Chats of Telegram

Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.

Библиотека собеса по Data Science | вопросы с собеседований from nl


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA